Aula 4

Mahayana Godoy

O que um teste estatístico faz?

Conteúdo do dia


  • Caps 3 e 4
  • z-score
  • Distribuição normal
  • Teste de hipótese
  • Tipos de erro

Histogramas e probabilidade

Calculando a probabilidade de um evento

Abaixo, você tem nosso velho conhecido histograma de distribuição de notas do exemplo de Hinton.

Se eu pegar uma dessas provas aleatoriamente, qual a chance de pegar uma prova de nota igual a 0?

  • Resposta: 0/100, ou 0.01

Calculando a probabilidade de um evento

E qual a chance de pegar uma prova de nota igual a 56?

  • Resposta: 7/100, ou 0.07

Calculando a probabilidade de um evento

E a probabilidade de tirar uma nota menor que 40?

  • Resposta: 12/100, ou 0.12

Calculando a probabilidade de um evento

Sabemos que um histograma registra a distribuição das frequências de ocorrência de eventos (tirar uma nota x em uma prova é um evento).


A probabilidade de um evento nos diz quantas vezes ele ocorre em n observações.


Essa probabilidade vai de 0 (indicando que nunca ocorre) a 1 (indicando que sempre ocorre). Assim, um evento de probabilidade 0.5 tem 50% de chance de ocorrer.


Podemos representar essas probabilidades em um histograma.

Mais informações sobre histogramas

Até agora, vimos histogramas com poucas observações.


Vamos ver o que acontece graficamente quando meu n, isto é, o meu número de observações, é muito maior.


Comecemos coletando informação sobre a altura de 100 homens e anotando os dados em cm.

Histograma de altura

Informação da amostra que vamos plotar: observações = 100, média 174cm, dp = 6

altura = rnorm(100, 174, 6)

Histograma de altura

E se eu coletar 1000 observações? (bin = 1)

altura = rnorm(1000, 174, 6)

E se eu coletar 10.000 observações? (bin = 1)

Histograma de altura

E se eu coletar 10.000 observações? (bin = 1)

altura = rnorm(10000, 174, 6)

E se eu coletar 1.000.000 observações? (bin = 0.1)

Histograma de altura

E se eu coletar 1.000.000 observações? (bin = 0.1)

altura = rnorm(1000000, 174, 6)

Histograma de altura

Você percebeu que, quanto mais dados eu tenho divididos em intervalos menores, mais o meu histograma se parece com uma curva.


Apesar de esse histograma parecer mais uma curva do que aquele nosso histograma com as notas das provas, ele ainda tem essa propriedade de representar as probabilidades dos valores cuja distribuição representa.

Histograma e probabilidade

De 1 milhão de homens representadas no histograma, 500 mil disseram ter entre 174 e 205. Qual a probabilidade de eu escolher um dado aleatório na minha amostra e ele ter um valor entre essas medidas?

  • Resposta: 0.5.

Histogramas e probabilidade

Portanto, dizemos que a ocorrência dos valores na área destacada tem p = 0.5.

Histogramas e probabilidade

Qual probabilidade é maior: ter entre 1.60 e 1.70 de altura ou ter entre 1.80 e 1.90? Como você pode saber disso apenas olhando o histograma?

  • Resposta: entre 1.60 e 1.70, porque a área destacada é maior.

Moral da história

No episódio de hoje, vimos que os histogramas são uma maneira de visualizarmos as probabilidades dos valores de uma distribuição. Isso é importante porque os testes de hipóteses consideram a probabilidade de ocorrência de um evento!

Distribuição normal: apresentação

Distribuição normal e o z-score

Para entendermos um teste de hipóteses e como ele se relaciona com as probabilidades que podem ser calculadas a partir de um histograma, precisamos aprender o que é

  1. uma distribuição normal

  2. um z-score

A distribuição normal

Você percebeu que indicamos a média e o desvio padrão para criar uma distribuição normal no R? Isso ocorre porque esses são os únicos valores necessários para expressar matematicamente uma distribuição que chamamos de DISTRIBUIÇÃO NORMAL.


Uma das características da distribuição normal é que média, mediana e moda tem o mesmo valor, e a distribuição de dados é simétrica.

A distribuição normal

Com relação à distribuição de dados, é possível observar que em uma distribuição normal:


  • 68% das observações estão entre \(\mu\) + \(\sigma\) e \(\mu\) - \(\sigma\)


  • 95% das observações estão entre \(\mu\) + 2\(\sigma\) e \(\mu\) - 2\(\sigma\)

A distribuição normal

Olhando a distribuição abaixo, você consegue ver características da distribuição normal?

A distribuição normal

Olhando a distribuição abaixo, você consegue ver características da distribuição normal?

A distribuição normal

Inúmeras medidas dos fenômenos que estudamos parecem ter uma distribuição normal. É por isso que boa parte dos testes estatísticos foram desenvolvidos para lidar com esse tipo de distribuição.


Um dos valores mais informativos para o teste de hipóteses a partir de distribuições normais é o z-score. Vamos ver como ele funciona através de um problema simples.

z-score: apresentação

Problema

O problema que segue é emprestado de Hinton (2014)

Uma jovem está pensando em entrar para o time de atletismo de sua escola. Ela precisa escolher um esporte. Suas marcas são as seguintes:


61.20 segundos nos 400 metros

1.35 metros no salto em altura


Você acha que ela consegue entrar para o time? Em qual desses esportes?

Problema

Uma medida só é informativa se comparada a outra(s)!

Abaixo, temos o valor da melhor performance da nossa atleta e a média dos atletas da escola para cada esporte.

##   atleta esporte medidas
## 1 escola    400m   60.00
## 2 atleta    400m   61.20
## 3 escola   salto    1.50
## 4 atleta   salto    1.35

Você acha que ela consegue entrar para o time? Em qual desses esportes?

z-score

É difícil concluir qual a melhor opção para a nossa atleta porque estamos comparando valores de distribuições diferentes.


O z-score permite comparar medidas de distribiuções diferentes normalizando essas medidas a partir da média e desvio-padrão das distribuições.


Para calculá-lo, basta dividir valor observado menos média pelo desvio-padrão.


\[ z=\frac{x-\mu}{\sigma} \]

Problema

Voltemos à nossa atleta e os valores médios do time da escola

##   atleta esporte medidas
## 1 escola    400m   60.00
## 2 atleta    400m   61.20
## 3 escola   salto    1.50
## 4 atleta   salto    1.35

Ela conseguiu descobrir que o desvio-padrão dos 400m é 3, e que o desvio-padrão do salto em altura é 0.15.


Para saber em que esporte ela tem mais chance, precisamos calcular o z-score.

Solução

observado.corrida = 61.2
media.corrida = 60
dp.corrida = 3

(observado.corrida - media.corrida)/dp.corrida
## [1] 0.4
observado.salto = 1.35
media.salto = 1.5
dp.salto = 0.15

(observado.salto - media.salto)/dp.salto
## [1] -1
  • Quanto mais distante de 0 está o z-score, mais distante da média
  • Seria melhor ela se inscrever nos 400m

Conclusão

Eu consigo comparar valores de distribuições diferentes se conseguir normalizá-los de alguma forma.


É isso que o z-score faz.


Para entendermos um pouco melhor porque o z-score é um índice tão importante, estudemos um pouco mais a distribuição normal.

A distribuição normal: Distribuição Normal Padrão

Diferentes distribuições

As distribuições normais diferem com relação a sua média e desvio-padrão.

Qual a probabilidade de eu tirar um valor igual ou maior que 80 nas distribuições abaixo?

Diferentes distribuições

Você consegue saber se a probabilidade de tirar 80 é alta ou baixa apenas olhando para o histograma. No entanto, quando fazemos testes estatísticos, precisamos de mais do que “olhar o histograma”.


Distribuição normal padrão

Se plotarmos os z-scores dos valores (em vez dos valores brutos), todas as distribuições ficam iguais à Distribuição normal padrão (m=0, dp=1)!

altura = rnorm(1000000, 174, 6)

z.altura = (altura-mean(altura))/6

Distribuição normal padrão

Se plotarmos os z-scores dos valores (em vez dos valores brutos), todas as distribuições ficam iguais à Distribuição normal padrão (m=0, dp=1)!!

Distribuição normal padrão

a: média=60, dp=3

b: média=70, dp=5

c: média=80, dp=10

Dist. normal padrão e z-scores

Os z-scores de toda distribuição normal convergem para formar a Distribuição Normal Padrão, uma normal de média = 0 e desvio-padrão = 1.


A chamada tabela da Distribuição Normal Padrão traz a probabilidade acumulada para os z-scores dessa distribuição.


Portanto, ao calcular o z-score de uma observação, podemos ver sua probabilidade acumulada na tabela da Distribuição Normal Padrão (Hinton, Apêndice A1).

Estudo de caso

Qual a probabilidade de um homem ter até 1,70 de acordo a distribuição do gráfico?

Estudo de caso

Eu posso calcular o z-score desse valor!

media = 174
dp = 6
observado = 170

z.score = (observado - media)/dp

z.score
## [1] -0.6666667

Agora eu posso ver a probabilidade de identificar esse z-score em um distribuição normal padrão uzando a tabela própria para isso (Hinton, Apêndice A1).

Estudo de caso 1

Eu faço isso procurando o valor 0.6 na linha e cruzando com 6 (para dar 0.66) na coluna.

Essa tabela, portanto, me dá a probabilidade acumulada de eu tirar um z-score específico.

Estudo de caso 2

Você participou de uma corrida de rua em que completou o percurso de 5km em 28 minutos. O tempo de corrida dos participantes apresenta uma distribuição normal com média de 32 minutos e desvio-padrão de 3.5.


Qual a probabilidade de alguém ter feito um tempo menor que o seu?


Qual a probabilidade de alguém ter feito um tempo maior que o seu?

Estudo de caso 2

media = 32
dp = 3.5
observado = 28

z.score = (observado - media)/dp
z.score
## [1] -1.142857
pnorm(z.score) #a função pnorm retorna a probabilidade acumulada para um valor z
## [1] 0.126549
1-pnorm(z.score)
## [1] 0.873451

Estudo de caso 2

Apenas para visualização

Perceba que, para saber quem fez um tempo menor, você quis saber a probabilidade de estar na cauda inferior, ou lower tail

Estudo de caso 3

Seu professor prometeu sortear um livro para os alunos que ficassem no top 10% da sala na prova final. A nota dos alunos apresentou uma distribuição normal, com média 6.5 e desvio-padrão 2. Sua nota foi 8.2.


Você está entre os alunos que participarão do sorteio?

Estudo de caso 3

media = 6.5
dp = 2
observado = 8.2

z.score = (observado - media)/dp

pnorm(z.score)
## [1] 0.8023375
1- pnorm(z.score)
## [1] 0.1976625
pnorm(z.score, lower.tail = FALSE) #estou dizendo que quero saber a probabilidade acumulada a partir da upper-tail. O default do R é assumir lower.tail = TRUE.
## [1] 0.1976625

Recapitulando

  1. Histograma nos informa a probabilidade de um evento

  2. Se a distribuição é normal, podemos saber a probabilidade acumulada conhecendo o z-score de um valor

  • Agora estamos prontos para entender como isso tudo nos permite testar hipóteses

Teste de Hipóteses

O que é uma hipótese?

  • Mulheres falam mais que homens

  • Jovens tem mais facilidade em aprender uma L2

  • Nos dois casos, estamos comparando populações (mais sobre isso na próxima aula)

Estudo de caso

Exemplo de Hinton, 2004

  • Hipótese: ensino intensivo aumenta a inteligência das pessoas

  • Como medir a VD: teste de QI

  • Operacionalização: pessoas que tiveram ensino intensivo se sairão melhor em testes de QI

Estudo de caso

Sabemos que os testes de QI são produzidos para resultarem em scores normalmente distribuídos, com média igual a 100 e desvio-padrão de 15.

Peter afirma que ensino intensivo aumenta o QI em até 30 pontos.

fonte: Hinton (2004)

Estudo de caso

  • Problema: eu não tenho como sair testando todo mundo que fez estudo intensivo. O que eu posso fazer é ver se as observações que eu tenho me permitem REJEITAR a hipótese de que elas tem grande probabilidade de terem saído da distribuição de QI para as pessoas em geral.

  • H0 (ou hipótese nula): não há diferença entre as distribuições

  • Quando eu faço um teste de hipótese, eu calculo a probabilidade de rejeitar a hipótese nula.

  • Peter quer mostrar que seu QI muito provavelmente NÃO pertence à população normal, com média de 100 e dp de 15 pontos.

Estudo de caso

Peter faz um teste de QI e o resultado é 120. Vamos calcular o z-score e a probabilidade de alguém da população comum ter um QI maior que o dele.

observado.qi = 120
media.qi = 100
dp.qi = 15

z.score.qi = (observado.qi - media.qi)/dp.qi

z.score.qi
## [1] 1.333333
pnorm(z.score.qi, lower.tail = F)
## [1] 0.09121122

Estudo de caso

A probabilidade de alguém da população normal ter um QI igual ou maior que o de Peter é de 0.091.

Isso é muito ou pouco? Se rejeitarmos a hipótese nula, quais as chances de estarmos rejeitando-a erroneamente?

Teste de hipóteses e alfa

  • O limiar que escolhemos para rejeitar a nossa hipótese nula é chamado de Nível de Significância, e representado com a letra grega \(\alpha\).

  • Dizer que seu \(\alpha\) é de 0.1 significa que há 10% de chance de rejeitar a hipótese nula quando ela não pode ser rejeitada.

  • Dizer que seu \(\alpha\) é de 0.05 significa que há 5% de chance de rejeitar a hipótese nula quando ela não pode ser rejeitada.


  • É VOCÊ que escolhe o seu \(\alpha\) (mais ou menos…)

Descrevendo o resultado

Considerando um \(\alpha\) = 0.05, não podemos rejeitar a hipótese nula* pois p = 0.09.


*Lembrando que a hipótese nula é de que o QI de Peter vem da distribuição de QIs observada para a população em geral.

Resumindo

  • Quando fazemos um teste de hipótese, estamos nos perguntando qual a probabilidade de rejeitarmos a Hipótese Nula.

  • Para isso, calculamos a probabilidade de um determinado valor ocorrer em um distribuição.

  • O z-score é uma maneira de calcular essa probabilidade.

Revisão

Simulando dados

Vimos que conseguimos conhecer uma normal sabendo apenas a sua média e desvio-padrão.

Posso simular conjuntos de n dados distribuídos em uma normal com a função rnorm().

a = rnorm(100, 80, 10) # n = 1000, média = 80, desvio-padrão = 10

Teste de hipótese

Para testar a probabilidade de um determinado z-score, podermos usar a função pnorm() e indicar se o teste se repere à upper tail ou lower tail.

pnorm(z-score, lower.tail = F) #probabilidade acumulada a partir da upper tail
pnorm(z-score, lower.tail = T) #probabilidade acumulada a partir da lower tail